【DAY22】爬蟲套件種類 & urllib

2023 iThome 鐵人賽

DAY 22

Modern Web

30天全端：關於網站實作的聊聊系列第 22 篇

15th鐵人賽 urlib python爬蟲

Bonnie1226

團隊消波塊上的海洋貓貓

2023-10-07 00:24:20

969 瀏覽

分享至

今天來講爬蟲的套件，以及會比較詳細的聊到urllib

常用的為以下三類

套件種類

內建
- urllib
第三方套件
- requests
- BeautifulSoup

先細講內建的urllib

urllib

可用於對網頁伺服器提出請求
方法(from urllib import request )
- 使用request.Request()提出請求
  - 請求的同時會把所需資料(headers, cookies, post data)一起帶入
- 使用request.urlopen()將網頁回傳值打開
輸出為HTML原始碼，為資料型態bytes(”b”開頭)
需要再使用decode(’utf8’)，將bytes轉為字串

urllib 使用範例

先簡單舉財政部台北國稅局的網站為例:
https://www.ntbt.gov.tw/multiplehtml/d7d124569cf04124ae5a042b4d9f16f7

import requests
from bs4 import BeautifulSoup
from urllib import request

url = 'https://www.ntbt.gov.tw/multiplehtml/d7d124569cf04124ae5a042b4d9f16f7'


res = request.urlopen(url)

print(res.read().decode('utf8'))

可以成功的抓出東西！

但每次都那麼順利嗎？